Delta Lake(德尔塔湖)是一种开源的数据湖存储层/表格式技术,常与 Apache Spark 配合使用,为数据湖提供 ACID 事务、版本管理(时间旅行)、统一批流处理、模式约束与演进 等能力,通常基于云对象存储(如 S3、ADLS、GCS)上的 Parquet 文件实现。
/ˈdɛltə leɪk/
Delta Lake adds ACID transactions to a data lake.
Delta Lake 为数据湖增加了 ACID 事务能力。
By using Delta Lake, the team can run batch and streaming jobs on the same tables while tracking every change over time.
通过使用 Delta Lake,团队可以在同一套表上同时运行批处理与流处理作业,并随时间追踪每一次数据变更。
“Delta”源自希腊字母 Δ(delta),常用来表示“变化/增量”(在数学、科学与工程语境中很常见);“Lake”在数据工程中指“数据湖”(以低成本存放海量原始数据的存储体系)。组合起来,“Delta Lake”强调在数据湖之上引入对“变化”和“可靠管理”的能力(如事务、日志与版本)。